

# 初始网络爬虫
# 1、网络爬虫的概述


# 网络爬虫概述
# 1、网络爬虫的概念
# 2、用处
# 3、价值和结构

# 网络爬虫及其应用
# 网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者成本
# 网络爬虫按照系统结构和实现技术，分为以下几种：
# 1、通用网络爬虫
# 2、聚焦网络爬虫
# 3、增量式网络爬虫
# 4、深层网络爬虫

# 搜索引擎是一种大型复杂的网络爬虫，属于通用性网络爬虫的范畴
# 聚焦爬虫是一个自动下载网页的程序，根据既定的抓取目标，有选择地访问万维网上的网页
# 与相关的链接，获取所需要的信息。
# 增量式爬虫是对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，
# 它能在一定程度上保证所爬行的页面是尽可能新的页面
# web页面按存在方式可以分为表层网页和深层网页。表层网页是指传统搜索引擎可以索引的页面，
# 以超链接可以到达的静态网页为主构成的web页面。
# 深层网络是那些大部分内容不能通过静态链接获取、隐藏在搜索表单后的，只有用户提交一些关
# 键词才能获得的web页面

# 网络爬虫实际运用的一些场景：
# 1、常见的BT网站，通过爬取互联网的DHT网络中分享的BT种子信息，提供对外搜索服务
# 2、一些云盘搜索网站，通过爬取用户共享出来的云盘文件数据，对文件数据进行分类划分，
# 从而提供对外搜索服务

# 网络爬虫结构
# 网络爬虫结构.png
# 1、首先选取一部分精心挑选的种子URL
# 2.将这些URL放入待抓取URL队列
# 3、从待抓取URL队列中读取待抓取队列的URL，解析DNS，并且得到主机的IP，并将URL对应
# 的网页下载下来，存储进已下载的网页库中。此外，将这些URL放进已抓取URL队列
# 4、分析已抓取URL队列中的URL，从已下载的网页数据中分析出其他URL，并和已抓取的
# URL进行比较去重，最后将去重过的URL放入待抓取URL队列，从而进入下一个循环